语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
多项式增强学习(MARL)最近的许多突破都需要使用深层神经网络,这对于人类专家来说是挑战性的解释和理解。另一方面,现有的关于可解释的强化学习(RL)的工作在从神经网络中提取更可解释的决策树政策方面显示了有望,但仅在单一机构设置中。为了填补这一空白,我们提出了第一组算法,这些算法从接受MARL训练的神经网络中提取可解释的决策策略。第一种算法IVIPER将Viper扩展到了单代代理可解释的RL的最新方法到多代理设置。我们证明,艾维尔(Iviper)学习每个代理商的高质量决策树政策。为了更好地捕捉代理之间的协调,我们提出了一种新型的集中决策树培训算法,Maviper。 Maviper通过使用其预期的树来预测其他代理的行为,并使用重新采样来集中精力,以重点放在对其与其他代理相互作用至关重要的状态上,从而共同生长了每个代理的树木。我们表明,这两种算法通常都优于基础线,而在三种不同的多代理粒子世界环境上,受过iviper训练的药物比iviper训练的药物获得了更好的协调性能。
translated by 谷歌翻译
心肌活力的评估对于患有心肌梗塞的患者的诊断和治疗管理是必不可少的,并且心肌病理学的分类是本评估的关键。这项工作定义了医学图像分析的新任务,即进行心肌病理分割(MYOPS)结合三个序列的心脏磁共振(CMR)图像,该图像首次与Mycai 2020一起在Myops挑战中提出的。挑战提供了45个配对和预对准的CMR图像,允许算法将互补信息与三个CMR序列组合到病理分割。在本文中,我们提供了挑战的详细信息,从十五个参与者的作品调查,并根据五个方面解释他们的方法,即预处理,数据增强,学习策略,模型架构和后处理。此外,我们对不同因素的结果分析了结果,以检查关键障碍和探索解决方案的潜力,以及为未来的研究提供基准。我们得出结论,虽然报告了有前途的结果,但研究仍处于早期阶段,在成功应用于诊所之前需要更深入的探索。请注意,MyOPS数据和评估工具继续通过其主页(www.sdspeople.fudan.edu.cn/zhuangxiahai/0/myops20 /)注册注册。
translated by 谷歌翻译
近年来,深入学习已成功应用于自动化各种诊断组织病理学的任务。然而,小规模地区的快速可靠的本地化(ROI)仍然是一个关键挑战,因为鉴别性形态特征通常只占据一小部分的千兆像素级全幻灯片(WSI)。在本文中,我们提出了一种稀疏的WSI分析方法,用于快速识别WSI级分类的高功率ROI。我们开发由早期分类文献的评估框架,以量化稀疏分析方法的诊断性能和推理时间之间的权衡。我们在病理学中的常见但耗时的任务中测试了我们的方法 - 从内镜活检标本诊断血液杂志和曙红(H&E) - 染色的载玻片上诊断胃肠元(GIM)。 Gim是沿着胃癌发展途径的着名前体病变。我们对我们的方法的性能和推理时间进行了彻底的评估,我们在GIM阳性和GIM负面WSI上的测试集中,发现我们的方法在所有正面WSI中成功地检测到GIM,接收器下的WSI级分类区域操作特性曲线(AUC)为0.98和0.95的平均精度(AP)。此外,我们表明我们的方法可以在标准CPU上达到一分钟内的这些指标。我们的结果适用于开发神经网络的目的,可以轻松地部署在临床环境中,以支持病理学家在快速定位和诊断WSI中的小规模形态特征。
translated by 谷歌翻译
虽然我们注意临床自然语言处理(NLP)的最新进展,但我们可以注意到临床和翻译研究界的一些抵抗,因为透明度,可解释性和可用性有限,采用NLP模型。在这项研究中,我们提出了一种开放的自然语言处理开发框架。我们通过实施NLP算法为国家Covid队列协作(N3C)进行了评估。基于Covid-19相关临床笔记的信息提取的利益,我们的工作包括1)使用Covid-19标志和症状作为用例的开放数据注释过程,2)一个社区驱动的规则集合平台,3)合成文本数据生成工作流程,用于生成信息提取任务的文本而不涉及人为受试者。 Corpora来自来自三个不同机构的文本(Mayo Clinic,肯塔基州大学,明尼苏达大学)。用单个机构(Mayo)规则集进行了金标准注释。这导致了0.876,0.706和0.694的F-Scors分别用于Mayo,Minnesota和肯塔基测试数据集。作为N3C NLP子群体的联盟努力的研究表明,创建联邦NLP算法开发和基准测试平台的可行性,以增强多机构临床NLP研究和采用。虽然我们在这项工作中使用Covid-19作为用例,但我们的框架足以适用于临床NLP的其他兴趣领域。
translated by 谷歌翻译
本文介绍了WiFi传感器 - 机器人(WSR)工具箱,一个开源C ++框架。它使团队中的机器人能够在彼此获得相对的轴承,即使在非思考(NLOS)设置中也是机器人中非常具有挑战性的问题。通过分析其传送的WiFi信号的阶段,因为机器人遍历环境来实现。基于我们的先前作品中开发的理论的这种能力是首次提供的作为OpenSource工具。它是由于缺乏使用机器人的本地资源(例如WiFi)来在NLOS中感测的易于部署的解决方案。这对多个机器人团队中的本地化,ad-hoc机器人网络和安全性有影响。工具箱专为使用商品硬件和车载传感器的机器人平台上分布式和在线部署而设计。我们还释放数据集,展示其在NLOS中的性能以及用于多机器人本地化USECASE的MOLICE中的表现。经验结果表明,我们的工具箱的轴承估计达到了5.10度的平均精度。在室内办公环境中的硬件部署中,这分别导致LOS和NLOS设置中的0.5米和0.9米的中值误差为0.5米和0.9米。
translated by 谷歌翻译
在本文中,我们推导了机器人来测量相对方向或到达角度(AOA)的新能力,以在非视线和未映射的环境中运行的其他机器人,而无需外部基础架构。我们通过捕获WiFi信号在从发送到接收机器人时遍历的所有路径来这样做,这是我们术语AOA简档。当机器人在3D空间中移动时,关键直觉是“在空中模拟空气中的天线阵列”,一种类似于合成孔径雷达(SAR)的方法。主要贡献包括i)一个框架,以适应任意3D轨迹的框架,以及所有机器人的持续移动性,而计算AOA配置文件和II)随附的分析,其提供了作为机器人轨迹的函数的AOA估计方差的较低限制基于Cramer Rao绑定的几何。这是一个关键的区别与先前的SAR的工作,限制机器人移动到规定的运动模式,不概括到3D空间,和/或在数据采集时段期间需要将机器人发送到静态。我们的方法导致更准确的AOA配置文件,从而更好地估计,并正式地将该观察表征为轨迹的信息性;我们推导出封闭形式的可计算量。所有理论发展都是通过广泛的模拟和硬件实验证实的。我们还表明,我们的配方可以与现成的轨迹估计传感器一起使用。最后,我们展示了我们系统对多机器人动态集合任务的表现。
translated by 谷歌翻译
We introduce a new dataset for joint reasoning about natural language and images, with a focus on semantic diversity, compositionality, and visual reasoning challenges. The data contains 107,292 examples of English sentences paired with web photographs. The task is to determine whether a natural language caption is true about a pair of photographs. We crowdsource the data using sets of visually rich images and a compare-and-contrast task to elicit linguistically diverse language. Qualitative analysis shows the data requires compositional joint reasoning, including about quantities, comparisons, and relations. Evaluation using state-of-the-art visual reasoning methods shows the data presents a strong challenge. * Contributed equally. † Work done as an undergraduate at Cornell University. 1 In parts of this paper, we use the term compositional differently than it is commonly used in linguistics to refer to reasoning that requires composition. This type of reasoning often manifests itself in highly compositional language.2 Appendix G contains license information for all photographs used in this paper. 3 The top example is True, while the bottom is False.
translated by 谷歌翻译
The need for data privacy and security -- enforced through increasingly strict data protection regulations -- renders the use of healthcare data for machine learning difficult. In particular, the transfer of data between different hospitals is often not permissible and thus cross-site pooling of data not an option. The Personal Health Train (PHT) paradigm proposed within the GO-FAIR initiative implements an 'algorithm to the data' paradigm that ensures that distributed data can be accessed for analysis without transferring any sensitive data. We present PHT-meDIC, a productively deployed open-source implementation of the PHT concept. Containerization allows us to easily deploy even complex data analysis pipelines (e.g, genomics, image analysis) across multiple sites in a secure and scalable manner. We discuss the underlying technological concepts, security models, and governance processes. The implementation has been successfully applied to distributed analyses of large-scale data, including applications of deep neural networks to medical image data.
translated by 谷歌翻译
Enhancing resilience in distributed networks in the face of malicious agents is an important problem for which many key theoretical results and applications require further development and characterization. This work focuses on the problem of distributed optimization in multi-agent cyberphysical systems, where a legitimate agent's dynamic is influenced both by the values it receives from potentially malicious neighboring agents, and by its own self-serving target function. We develop a new algorithmic and analytical framework to achieve resilience for the class of problems where stochastic values of trust between agents exist and can be exploited. In this case we show that convergence to the true global optimal point can be recovered, both in mean and almost surely, even in the presence of malicious agents. Furthermore, we provide expected convergence rate guarantees in the form of upper bounds on the expected squared distance to the optimal value. Finally, we present numerical results that validate the analytical convergence guarantees we present in this paper even when the malicious agents compose the majority of agents in the network.
translated by 谷歌翻译